iT邦幫忙

2021 iThome 鐵人賽

DAY 19
0
AI & Data

Data on Air - 以AWS服務實作雲端數據分析系列 第 19

DAY 19 Big Data 5Vs – Variety(速度) EMR (2)

  • 分享至 

  • xImage
  •  

接續介紹昨天建立的EMR叢集:

建立的叢集可以在左方工具欄的叢集分頁找到
https://ithelp.ithome.com.tw/upload/images/20211001/20140161fxI4UrI9K3.jpg
步驟的狀態可以到「步驟」分頁查看,可以看到叢集會分兩步驟:
先建立好Hadoop後再安裝Spark程式後執行分析任務
Hadoop設定大約需要6-8分鐘
https://ithelp.ithome.com.tw/upload/images/20211001/201401614Eskc7vHhG.jpg
因為建立時選用的是步驟執行,可以看到狀態還是「待定」
然後會看到執行步驟會由下而上依序轉換成「已完成」,然後就會叢集就會終止
https://ithelp.ithome.com.tw/upload/images/20211001/20140161BhOKFvyTAr.jpg
Log記錄會存到建立叢集時指定的S3 bucket中,點選後會轉跳到對應頁面
如果執行失敗了也可以到log記錄去看

EMR的服務頁面可以當作Hadoop3的 9870 port來用,相當方便,
而分析處理完的結果也是到S3 對應的bucket中查詢
https://ithelp.ithome.com.tw/upload/images/20211001/20140161pcB9dL5wYN.jpg
當然因為批次執行大量檔案的分析,檔案是以壓縮檔儲存(這裡是parquet檔),
所以比起直接到S3察看EMR的ETL結果,更常見的架構是在EMR後串接像是Hive或Athena等查詢工具來進一步分析資料

AWS上方便的查詢工具就是Athena(後續會介紹),
進入到Athena服務頁面可以在左方選定資料源後在右方編輯器下SQL查詢語句
https://ithelp.ithome.com.tw/upload/images/20211001/20140161MurvY5tliN.jpg

*Hadoop( https://zh.wikipedia.org/wiki/Apache_Hadoop )


上一篇
DAY 18 Big Data 5Vs – Variety(速度) EMR (1)
下一篇
DAY 20 Big Data 5Vs – Variety(速度) EMR (2)
系列文
Data on Air - 以AWS服務實作雲端數據分析30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言